智慧應用 影音

AI 如何真正「看懂」影片?全球最強影片理解模型 TwelveLabs Marengo 3.0 在 Amazon Bedrock 登場

  • DIGITIMES / 台北
  • 2025-12-12 00:00:00
當企業擁有數以萬計的影片資產——產品展示、客戶見證、培訓內容、行銷素材——卻無法有效搜尋與利用時,這些資料就只是佔用儲存空間的成本,而非創造價值的資產。傳統的影片搜尋依賴人工標籤或基本的語音轉文字,既耗時又不準確。
2025 年 12 月 1 日,TwelveLabs 在 AWS re:Invent 大會上宣布 Marengo 3.0 正式推出,這個號稱「全球最強」的影片理解模型現已在 Amazon Bedrock 和 TwelveLabs 平台上提供服務。不同於傳統模型的逐幀分析,Marengo 3.0 將影片視為完整的動態系統,能「直接連結」其中涵蓋的對話、手勢、動作與情緒內容。
數據證明其突破性:儲存成本降低 50%、索引效能提升 2 倍、支援長達 4 小時的影片、辨識 36 種語言。這不只是技術進步,而是讓企業能以「搜尋文字的方式」輕鬆搜尋與理解影片內容的典範轉移。
從「看」到「看懂」:影片理解的典範轉移
傳統方法的根本限制
人類觀看影片時,不只是處理一系列靜止畫面。我們理解劇情發展、感受情緒變化、預測接下來會發生什麼。一個角色在開場時說的話,可能在結尾時有了完全不同的意義。這種跨時間的脈絡理解,正是影片的本質。

傳統的影片分析技術無法做到這點。大多數模型採用「逐幀分析」——將影片切成一系列靜止畫面,用圖像識別技術處理每一幀,然後試圖將結果拼接起來。這個方法有根本的限制:畫面之間的關聯被切斷了。演員的表情可能被識別,但表情背後的情緒脈絡卻遺失了。

原生影片理解的突破
Marengo 3.0 採用完全不同的方法。它從設計之初就是為影片建構的——不是從圖像模型改編、不是將多個模型拼接、而是在基礎模型層級就原生理解影片作為動態系統的本質。TwelveLabs 稱之為「Native Video Understanding」——原生影片理解。
這種原生能力體現在模型如何處理時間與空間的脈絡。「Temporal & Spatial Reasoning」——跨時間與空間的推理能力——是 Marengo 3.0 的核心優勢。它能理解「三分鐘前提到的那個人,現在在畫面右側做出的手勢」這種複雜的跨時間參照,也能識別「當主角走進那個房間時,背景音樂的變化暗示了什麼」這種多模態線索。
商業價值的重新定義
對企業而言,這意味著搜尋方式的根本改變。過去,要在影片庫中找到「客戶討論價格顧慮的片段」,可能需要觀看數小時影片或依賴不完整的人工標籤。現在,可以用自然語言描述需求,Marengo 3.0 理解「討論」的語境、「價格」的概念、「顧慮」的情緒表達,然後定位到精確的時間點。
媒體公司可以快速找到特定情節用於宣傳;培訓部門可以定位課程中的關鍵知識點;行銷團隊可以從數千小時的使用者訪談中提取洞察;客服部門可以分析通話錄影找出常見問題模式。影片資產不再是難以管理的資料海洋,而是可以精確導航的知識寶庫。
全球最強的技術基礎:六大突破能力
TwelveLabs 宣稱 Marengo 3.0 是「世界最強的影片理解模型」,這不是空洞的行銷語言,而是基於六個關鍵技術突破的具體能力。
原生影片架構:從零開始的設計
Marengo 3.0 不是從圖像模型改編而來,而是從零開始為影片設計。這意味著模型的架構、訓練資料、最佳化目標都針對影片的特性。處理影片時,不需要先將視訊降級為一系列圖像、再用圖像模型分別處理、最後再嘗試重建時間關係。資訊在模型內部以影片的原生形式流動,時間維度的資訊從未丟失。
時空推理:理解動態關係
模型不只辨認畫面中的物體,而是理解它們在時間與空間中的關係。一個球員不只是「在畫面中」,而是「從左側跑向球門、加速超過對手、在禁區邊緣準備射門」。時間推理更進一步——模型能理解因果關係、識別時序模式、追蹤長期發展,讓 Marengo 3.0 能夠回答「為什麼」而不只是「是什麼」的問題。
體育智慧:產業首創能力
這是產業首創的能力。Marengo 3.0 能夠追蹤團隊、識別球員、讀取球衣號碼、分類動作類型。想像一個使用情境:「找出 10 號球員所有的助攻」。Marengo 3.0 能自動完成整個流程——視覺上追蹤穿著 10 號球衣的球員、理解「助攻」這個足球概念、識別符合定義的動作序列、提取相關片段。
這個能力不限於足球。籃球、網球、棒球——任何有編號、有特定動作模式的運動都能受益。對於體育媒體而言,這能將精彩片段製作從數小時縮短到數分鐘。
組合式查詢:視覺與語言的結合
使用者可以在單一查詢中結合文字描述與圖像範例。例如,上傳一張特定產品的圖片,同時描述「客戶對這個產品的正面反饋」。模型會在影片中找到視覺上出現該產品、且對話內容表達正面評價的片段。
生產經濟效益:成本與效率的平衡
50% 的儲存成本降低、2 倍的索引速度提升——這些不是實驗室數據,而是實際部署中可實現的效益。對於擁有龐大影片庫的企業,這意味著直接的成本節省與效率提升。更重要的是新收益流的潛力——當影片內容能被精確搜尋時,內容的再利用價值大增。
企業就緒:快速安全整合
透過 Amazon Bedrock 部署,讓大型組織能夠在現有 AWS 環境中快速且安全地整合 Marengo 3.0。API 優先的設計讓開發團隊能夠輕鬆將影片理解能力嵌入既有應用。
50% 成本降低背後的架構創新
緊湊嵌入技術
儲存成本降低 50%,這個數字如何實現?答案在於 Marengo 3.0 如何表示與索引影片內容。傳統的影片索引方法需要儲存大量的中間資料——逐幀分析產生每一幀的特徵向量、音訊處理產生轉錄文字與音訊特徵、文字分析產生語義標籤。當影片庫達到數千或數萬支影片時,索引資料的儲存成本可能超過影片本身。
Marengo 3.0 採用「緊湊嵌入」(Compact Embeddings) 技術。模型將影片內容壓縮為高度濃縮的向量表示,這些向量捕捉了影片的語義本質,但佔用的空間極小。這種壓縮不是簡單的資料削減,而是智慧的資訊濃縮——模型學習了哪些特徵對於理解影片最重要、哪些細節可以捨棄而不影響搜尋準確度。
架構最佳化帶來的速度提升
索引速度提升 2 倍則來自架構的最佳化。Marengo 3.0 能夠平行處理影片的不同部分、能夠增量式更新索引而不需要重新處理整支影片、能夠根據影片類型選擇最有效的處理策略。當需要索引數百或數千支影片時,這些最佳化累積成顯著的時間節省。
實際商業影響
假設一家媒體公司有 10,000 支影片,每支平均 30 分鐘。使用傳統索引方法,可能需要數週時間完成初始索引、儲存成本每月數萬美元。使用 Marengo 3.0,索引時間縮短到數天、儲存成本減半。更重要的是持續成本——每天新增的影片需要索引、使用者查詢需要處理、系統需要維護。當基礎成本降低 50% 時,這些持續開支也相應減少。
體育智慧:改變精彩片段製作的方式
從數小時到數分鐘
想像體育媒體製作精彩片段的傳統流程:編輯需要觀看完整比賽、手動記錄重要時刻、剪輯相關片段、加上圖形與解說。一場 90 分鐘的足球賽,可能需要數小時的人工處理才能產出 5 分鐘的精彩集錦。
現在考慮 Marengo 3.0 能做什麼。「找出所有 10 號球員的射門」——模型視覺追蹤穿著 10 號球衣的球員在整場比賽中的移動、識別「射門」這個動作模式、提取相關片段。整個流程自動完成,從數小時縮短到數分鐘。
跨時間的身份追蹤
球衣號碼的讀取聽起來簡單,實際極具挑戰。球員在快速移動、號碼可能被遮擋、不同角度看起來不同、光線條件變化。Marengo 3.0 不只在單一幀中辨識號碼,而是跨時間整合證據——當某個角度看不清時,模型會參考前後幀、考慮球員的移動軌跡、利用其他線索來確定身份。
體育概念的深度理解
「射門」不只是球員踢球,而是特定的動作序列。「助攻」不只是傳球,而是導致隊友得分的傳球。這些體育概念需要理解規則、理解戰術、理解時間因果。Marengo 3.0 的體育智慧不是針對單一運動硬編碼,而是學習了體育視訊的一般模式,能夠適應不同運動的特定概念。
應用場景的擴展
應用場景遠超過精彩片段製作。球隊分析師可以快速研究對手的戰術模式、廣播公司可以提供個人化內容、培訓團隊可以建立技術影片庫。商業模式也可能改變——內容不再是固定的產品,而是動態組合的服務。
Amazon Bedrock 整合:完整的企業 AI 路徑
部署簡化與安全保障
Marengo 3.0 在 Amazon Bedrock 上提供服務,這打開了完整的企業 AI 應用路徑。對於企業而言,「在 Amazon Bedrock 上提供」意味著幾個關鍵優勢:部署簡化——不需要建立獨立的基礎設施;安全性保障——繼承 AWS 的安全框架;整合順暢——與既有 AWS 服務無縫連接。
Knowledge Bases 的強大整合
Amazon Bedrock Knowledge Bases 提供了一個特別強大的整合點。企業客服系統需要回答產品相關問題,產品資訊分散在文件、影片、網頁中。使用 Knowledge Bases,可以將這些來源索引——當客戶提問時檢索相關內容、Marengo 3.0 定位到影片中的解決方案片段、語言模型將影片片段與文字說明整合,生成包含影片連結與文字說明的完整回答。
OpenSearch 整合的分析能力
Amazon OpenSearch 整合提供另一個應用路徑。OpenSearch 是強大的搜尋與分析引擎,支援全文搜尋、向量搜尋、分析聚合。Marengo 3.0 作為向量儲存層,OpenSearch 提供搜尋與分析能力——企業可以建立統一的搜尋介面,同時搜尋文件、影片、結構化資料。
API 優先的靈活性
API 優先的設計意味著開發者擁有完整的靈活性。可以將 Marengo 3.0 嵌入既有應用、建立自訂工作流程、與其他 AWS 服務整合。TwelveLabs 提供的是能力而非封閉系統,企業可以根據自己的需求組合使用。
36 種語言、4 小時影片:生產規模化能力
多語言支援的全球化需求
36 種語言的支援不只是技術能力展示,而是全球化業務的必需。跨國企業的影片內容以多種語言製作——產品發布會可能有多語言版本、培訓材料需要在地化、客戶回饋來自不同市場。Marengo 3.0 的多語言能力意味著統一的工作流程,無論影片語言是中文、西班牙語、阿拉伯語還是其他,使用相同的 API、相同的索引流程、相同的搜尋介面。
長視訊處理的完整脈絡
4 小時影片支援解決了長視訊的挑戰。許多真實場景的影片遠超過幾分鐘——會議記錄可能 2-3 小時、培訓課程可能更長。傳統方法是將長影片切成短片段分別處理,但這會破壞跨片段的脈絡。Marengo 3.0 能夠處理完整的 4 小時影片作為單一脈絡,保留了長時間範圍的關聯。
生產環境的可靠性
API 優先的設計、緊湊嵌入的特性、月費服務模式——這些都是生產就緒的指標。開發者可以快速開始,當需要進階功能時,API 提供豐富的選項。當影片庫成長到數萬或數十萬支影片時,索引可以載入記憶體、搜尋可以快速執行、儲存成本可控。
企業應用的轉型潛力
客戶洞察挖掘
大型企業進行大量客戶訪談、焦點小組、使用者測試。Marengo 3.0 讓整個影片庫變成可查詢的知識庫——產品經理可以搜尋「客戶對新功能的反應」、設計師可以查詢「使用介面時的困惑時刻」、行銷團隊可以提取「客戶描述產品價值的原話」。
培訓內容最佳化
Marengo 3.0 支援的應用可以提供「智慧章節」——自動識別培訓影片的不同主題、讓使用者直接跳到相關段落。更進一步,可以建立客製化學習路徑——根據員工角色或已有知識,從多支培訓影片中提取相關片段組成個人化課程。
行銷素材重用
行銷團隊創造大量影片內容——產品展示、客戶見證、活動記錄。這些素材可以重新組合用於不同用途。需要製作關於特定功能的宣傳影片?搜尋所有展示該功能的片段。內容創造的投資獲得更高的回報。
媒體與娛樂變現
內容提供商擁有龐大的影片庫。Marengo 3.0 讓這些內容能夠以新方式變現——觀眾可以搜尋跨作品的主題、內容可以授權給教育機構基於精確的片段而非整支影片,創造更細緻的授權模式。
從技術突破到產業標準
TwelveLabs Marengo 3.0 在 Amazon Bedrock 的推出,標誌著影片理解技術從實驗室邁向生產的重要里程碑。「全球最強」不只是行銷語言,而是基於原生影片架構、時空推理能力、體育智慧、多語言支援、規模化能力的具體技術領先。
50% 成本降低、2 倍索引速度、4 小時影片支援、36 種語言——這些不是孤立的功能點,而是一個完整系統讓影片資產變成可搜尋、可分析、可重用的知識庫所需的能力。透過 Amazon Bedrock 部署,Marengo 3.0 不是孤立的工具,而是 AWS AI 生態系統的一部分。與 Knowledge Bases 整合支援 RAG 應用、與 OpenSearch 整合提供統一搜尋、API 優先設計允許靈活整合。
從「看」影片到「看懂」影片,從逐幀分析到脈絡理解,從被動歸檔到主動搜尋——Marengo 3.0 代表的不只是技術進步,而是影片資產利用方式的根本轉變。當每家企業都擁有龐大的影片資料時,能夠有效理解與利用這些資料的組織將獲得競爭優勢。
當技術持續演進、模型變得更強大、應用場景更廣泛時,影片可能成為知識管理的核心而非邊緣。企業的知識庫不只包含文件與資料庫,更包含可搜尋、可引用、可分析的影片內容。Marengo 3.0 在 Amazon Bedrock 上的推出,是這個未來的起點。
進一步了解或尋求專業建議
若您希望探討如何將 TwelveLabs Marengo 3.0 應用於您的業務場景,或了解如何透過 Amazon Bedrock 開始您的影片理解之旅,歡迎聯絡 AWS 台灣團隊。
無法去拉斯維加斯親自體驗?歡迎報名參與Best of AWS re:Invent (AWS 雲端科技發表會) 線上參與,一樣精彩!https://go.aws/48uR2Tx
聯絡 AWS 台灣
參考資料
關鍵字
大家都在看